设计机器学习算法准确但公平,而不是基于任何敏感属性进行区分,对于社会接受对关键应用的AI至关重要。在本文中,我们提出了一种新颖的公平表示方法,称为R \'enyi公平信息瓶颈方法(RFIB),该方法包含了代表性的效用,公平性和紧凑性的约束,并将其应用于图像分类。我们方法的一个关键属性是,与大多数先前的工作相比,我们认为人口统计学奇偶ant和均衡的赔率是公平的约束,从而使对这两个标准的满意度更加细致。利用各种方法,我们表明我们的目标产生了涉及经典信息瓶颈(IB)措施的损失函数,并根据r \'enyi nyi nyi差异$ \ alpha $在共同信息上的r \'enyi差异ib术语IB术语测量紧凑度上建立上限在输入及其编码嵌入之间。在三个不同的图像数据集(Eyepacs,celeba和Fairface)上进行实验,我们研究了$ \ alpha $参数的影响以及其他两个可调IB参数对实现效用/公平性权衡目标的影响,并表明$ \ \ \ \ Alpha $参数提供了一个额外的自由度,可用于控制表示的紧凑性。我们使用各种效用,公平性和复合效用/公平指标评估方法的性能,表明RFIB的表现优于当前最新方法。
translated by 谷歌翻译
随着虚拟助手变得越来越多样化和专业,对应用或特定品牌唤醒的需求也是如此。但是,通常用于训练尾流检测器的特定于唤醒特定的数据集是昂贵的。在本文中,我们探索了两种技术来利用声音建模数据,以提高大唱歌的语音识别,以改善专用的尾流探测器:转移学习和知识蒸馏。我们还探讨了这些技术如何与时间同步训练目标相互作用以提高检测潜伏期。实验显示在开源“嘿STHIPS”数据集中,并且内部远场数据集更具挑战性。使用大型声学模型中的电话同步目标和知识蒸馏,我们能够提高两个数据集的数据集尺寸的精度,同时降低延迟。
translated by 谷歌翻译
由于其各种潜在应用及其众多挑战,视频生成是机器学习中相对较新的,但流行的主题。视频生成中的当前方法为用户提供了很少或根本没有控制通过对生成视频中的对象被移动并位于每个帧的精确规范,即,用户无法明确控制每个对象如何视频应该移动。在本文中,我们提出了一种新颖的方法,该方法允许用户通过在这些对象上绘制边界框,然后在所需路径中移动这些框来移动所有数量的单个初始帧的对象。我们的模型利用两个AutoEncoders完全分解视频中的运动和内容信息,并实现与众所周知的基线和现有方法的结果相当。
translated by 谷歌翻译